home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9610 / 000109_owner-urn-ietf _Thu Oct 24 17:02:28 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  7KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id RAA19325 for urn-ietf-out; Thu, 24 Oct 1996 17:02:28 -0400
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id RAA19316 for <urn-ietf@services.bunyip.com>; Thu, 24 Oct 1996 17:02:23 -0400
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA00362  (mail destined for urn-ietf@services.bunyip.com); Thu, 24 Oct 96 17:02:13 -0400
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <01664-0@josef.ifi.unizh.ch>; Thu, 24 Oct 1996 23:02:14 +0100
  7. Subject: Re: [URN] Unicode for NSS query
  8. To: jayhawk@ds.internic.net
  9. Date: Thu, 24 Oct 1996 23:02:13 +0100 (MET)
  10. Cc: urn-ietf@bunyip.com
  11. In-Reply-To: <9610242040.AA05679@qsun2.ho.att.com.qsun2> from "jayhawk@ds.internic.net" at Oct 24, 96 03:46:15 pm
  12. Mime-Version: 1.0
  13. Content-Type: text/plain; charset=US-ASCII
  14. Content-Transfer-Encoding: 7bit
  15. Content-Length: 5224
  16. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  17. Message-Id: <"josef.ifi..881:24.09.96.22.02.15"@ifi.unizh.ch>
  18. Sender: owner-urn-ietf@services.bunyip.com
  19. Precedence: bulk
  20. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  21. Errors-To: owner-urn-ietf@bunyip.com
  22.  
  23. Ryan wrote:
  24. >
  25. >On Thu, 24 Oct 1996 21:47:41 +0100 (MET), Martin J Duerst wrote:
  26. >
  27. >>>
  28. >>>On Thu, 24 Oct 1996, Martin J Duerst wrote:
  29. >>>
  30. >>>> 
  31. >>>> I have suggested that we might be required to thing in terms of
  32. >>>> both characters and octets. For some things, similar to a data:
  33. >>>> URL, thinking in characters might be artificial. For some
  34. >>>> other things, such as URLs, thinking in octets may to some
  35. >>>> extent be necessary because of backwards compatibility issues
  36. >>>> (assume an URL scheme is extended and decides to use some
  37. >>>> weird RFC 1522-like method for encoding characters, and this
  38. >>>> would have to be grandfathered).
  39. >>>>
  40. >>>
  41. >>>I have thought about the same thing, and I admit that I am not altogether
  42. >>>enthusiastic about RFC 1522 style encoding of URNs, but it may be forced
  43. >>>upon us. 
  44. >>
  45. >>Well, I didn't mean that this is currently the case. The ftp
  46. >>i18n extensions, for example, are happily going in the direction
  47. >>of UTF-8 and would very well fit together with our proposal.
  48. >>
  49. >>But I have made the experience that trying to specify UNicode only
  50. >>can meet quite some resistance. Some people, for whatever reasons,
  51. >>are strongly anti-unicode. If you specify something like
  52. >>"urns use Unicode and nothing else", they may start to complain.
  53. >>If you say "urns should use Unicode, and clients should interpret
  54. >>urns as Unicode if possible, but if really necessary, an NSS
  55. >>can use something else" then it's difficult to oppose, even
  56. >>if maybe in actual practice, there will not be a single NSS
  57. >>that ever specifies something else than Unicode.
  58. >
  59. >Huh?  My "knee-jerk" reaction is that by saying that client should convert from
  60. >an NSS that isn't in Unicode(10646)/UTF-8 shall be converted before
  61. >being sent to the URN resolver handles this nicely.  I include in this statement
  62. >the act of entering a NSS at an interface in some other encoding (ASCII, etc.)
  63.  
  64. Yes, but sometimes you would just not know what charset the
  65. stuff is in. Note that there are two things:
  66.  
  67. - The user types in an urn into an application that locally
  68.     uses some other encoding, which then gets converted
  69.     to UTF-8 at the moment the application knows this is
  70.     an URN.
  71. - There is an NSS that for some reasons, and maybe for some
  72.     of its namespace only, doesn't have a clue about what
  73.     characters it's dealing with, or explicitly wants
  74.     to have the relation between characters and octet
  75.     values different that UTF-8 for some reason whatsoever.
  76. It is the later that I am speaking about, not the former.
  77.  
  78.  
  79. >>NSSs or URL shemes (I still have problems distingushing them)
  80. >>themselves might also do the same thing, namely saying that
  81. >>in general, character semantics should be ISO 10646/UTF-8, but
  82. >>that other things would be tolerated for backwards compatibility.
  83. >>This is exactly the case for ftp, where a lot of 8-bit filenames
  84. >>are already existing and in use, although not UTF-8.
  85. >
  86. >I'm not sure I'm comfortable with this.  My view is that the documentation of the NID
  87. >would specify this as an exception to the syntax document and the syntax document
  88. >says "here's the syntax, but exceptions are allowed for namespaces that document 
  89. >there exceptions elsewhere?  Seems awfully kludgy to me...
  90.  
  91. Yes, in some sense it is. But this is reality, which is not always
  92. simple and logic.
  93. Take ftp as an example. Although not officially standardised,
  94. a lot of ftp hosts have files with 8-bit octets in their names.
  95. Although you can make some guesses about what characters these
  96. octets stand for, you are really not sure. Even on the same
  97. server, or in the same URL, different files, or different parts,
  98. may have different encodings, because the encodings reflect the
  99. settings of the users that created these filenames.
  100. And it is impossible to force upon all existing ftp servers
  101. that they suddenly know what characters their filenames
  102. represent if up to now URLs have been octets and nothing else.
  103.  
  104. The only thing we can hope for, and which we are working for
  105. in the ftp-wg, is a gradual transition towards UTF-8.
  106.  
  107.  
  108. >>It is also important because not every arbitrary sequence of
  109. >>8-bit octets is an UTF-8 sequence. What should browsers, resolvers,
  110. >>and all the other components of our URN arichitecture do with
  111. >>these?
  112. >
  113. >I expect that anything that tries to resolve a sequence of 8-bit octets that aren't a
  114. >UTF-8 sequence should fail, unless the namespace has provided information otherwise.
  115.  
  116. That might be a solution, unless there are resolvers that do resolution
  117. without knowing much about specific namespaces. But for existing
  118. URL schemes, the assumption would have to be that they implicitly
  119. specify otherwise.
  120.  
  121. >I see this as related to the above issue:  The two basic choices are:
  122. >
  123. >(1) Allow things other than UTF-8 (and force the exceptions to be documented as
  124. >part of namespace registration).  The resolvers then have to use the namespace
  125. >specific information (including exceptions).  (2) Do not allow other than UTF-8 and
  126. >reject the arbitrary 8-bit octet sequence as unresolvable if it is unresolvable.
  127. >
  128. >The first is cleaner from the point of view of the end-users, the second from the point
  129. >of view of internal clenliness.
  130.  
  131. The second, at any rate, is not very practical.
  132.  
  133.  
  134. Regards,    Martin.